We propose a very fast frame-level model for anomaly detection in video, which learns to detect anomalies by distilling knowledge from multiple highly accurate object-level teacher models. To improve the fidelity of our student, we distill the low-resolution anomaly maps of the teachers by jointly applying standard and adversarial distillation, introducing an adversarial discriminator for each teacher to distinguish between target and generated anomaly maps. We conduct experiments on three benchmarks (Avenue, ShanghaiTech, UCSD Ped2), showing that our method is over 7 times faster than the fastest competing method, and between 28 and 62 times faster than object-centric models, while obtaining comparable results to recent methods. Our evaluation also indicates that our model achieves the best trade-off between speed and accuracy, due to its previously unheard-of speed of 1480 FPS. In addition, we carry out a comprehensive ablation study to justify our architectural design choices.
translated by 谷歌翻译
在计算机视觉领域,异常检测最近引起了越来越多的关注,这可能是由于其广泛的应用程序从工业生产线上的产品故障检测到视频监视中即将发生的事件检测到在医疗扫描中发现病变。不管域如何,通常将异常检测构架为一级分类任务,其中仅在正常示例上进行学习。整个成功的异常检测方法的家庭基于学习重建掩盖的正常输入(例如贴片,未来帧等),并将重建误差的幅度作为异常水平的指标。与其他基于重建的方法不同,我们提出了一种新颖的自我监督蒙面的卷积变压器块(SSMCTB),该卷积变压器块(SSMCTB)包括基于重建的功能在核心架构层面上。拟议的自我监督块非常灵活,可以在神经网络的任何层上掩盖信息,并与广泛的神经体系结构兼容。在这项工作中,我们扩展了以前的自我监督预测性卷积专注块(SSPCAB),并具有3D掩盖的卷积层,以及用于频道注意的变压器。此外,我们表明我们的块适用于更广泛的任务,在医学图像和热视频中添加异常检测到基于RGB图像和监视视频的先前考虑的任务。我们通过将SSMCTB的普遍性和灵活性整合到多个最先进的神经模型中,以进行异常检测,从而带来了经验结果,可以证实对五个基准的绩效改进:MVTEC AD,BRATS,BRATS,Avenue,Shanghaitech和Thermal和Thermal和Thermal罕见事件。我们在https://github.com/ristea/ssmctb上发布代码和数据作为开源。
translated by 谷歌翻译
随着视觉变压器在多个计算机视觉任务中的成功应用之后,这些模型引起了信号处理社区的关注。这是因为信号通常表示为频谱图(例如通过离散的傅立叶变换),可以直接提供作为视觉变压器的输入。但是,天真地将变压器应用于频谱图是次优的。由于轴代表不同的尺寸,即频率和时间,因此我们认为一种更好的方法是将注意力集中在每个轴上。为此,我们提出了可分离的变压器(SEPTR),该体系结构以顺序使用两个变压器块,在同一时间间隔内首次访问令牌,第二个在同一频率箱内的代币。我们对三个基准数据集进行实验,表明我们的可分离体系结构的表现优于常规视觉变压器和其他最新方法。与标准变压器不同,SEPTR线性地缩放具有输入大小的可训练参数的数量,从而具有较低的内存足迹。我们的代码可在https://github.com/ristea/septr上作为开源。
translated by 谷歌翻译
异常检测通常被追求为单级分类问题,其中模型只能从正常训练样本中学习,同时在正常和异常的测试样本上进行评估。在异常检测的成功方法中,一种杰出的方法依赖于预测屏蔽信息(例如修补程序,未来帧等)并利用相对于屏蔽信息的重建误差作为异常分数。与相关方法不同,我们建议将基于重建的功能集成为新颖的自我监督的预测建筑结构块。所提出的自我监督块是通用的,并且可以容易地结合到各种最先进的异常检测方法中。我们的块从带有扩张过滤器的卷积层开始,其中掩盖接收场的中心区域。得到的激活图通过通道注意模块传递。我们的块配备有损失,使得能够最小化接收领域中的遮蔽区域的重建误差。我们通过将其集成到几种最先进的框架中,以便在图像和视频上进行异常检测,提供对MVTEC AD,Avenue和Shanghaitech的经验证据提供了显着改进的经验证据。
translated by 谷歌翻译
为了对线性不可分离的数据进行分类,神经元通常被组织成具有至少一个隐藏层的多层神经网络。灵感来自最近神经科学的发现,我们提出了一种新的神经元模型以及一种新的激活函数,可以使用单个神经元来学习非线性决策边界。我们表明标准神经元随后是新颖的顶端枝晶激活(ADA)可以使用100 \%的精度来学习XOR逻辑函数。此外,我们在计算机视觉,信号处理和自然语言处理中进行五个基准数据集进行实验,即摩洛哥,utkface,crema-d,时尚mnist和微小的想象成,表明ADA和泄漏的ADA功能提供了卓越的结果用于各种神经网络架构的整流线性单元(Relu),泄漏的Relu,RBF和嗖嗖声,例如单隐层或两个隐藏层的多层的Perceptrons(MLPS)和卷积神经网络(CNNS),如LENET,VGG,RESET和字符级CNN。当我们使用具有顶端树突激活(Pynada)的金字塔神经元改变神经元的标准模型时,我们获得进一步的性能改进。我们的代码可用于:https://github.com/raduionescu/pynada。
translated by 谷歌翻译
随着最近的研究进展,深度学习模型已成为实时电信应用程序中声学回声取消(AEC)的有吸引力的选择。由于声学回声是音频质量差的主要来源之一,因此提出了各种各样的深层模型。但是,对良好回声取消质量的重要但经常忽略的要求是麦克风和远端信号的同步。通常,使用基于互相关的经典算法实现,对齐模块是具有已知设计限制的单独功能块。在我们的工作中,我们提出了一个基于内置自我注意的对准的深度学习体系结构,该架构能够处理不结盟的输入,从而改善了回声取消性能,同时简化了通信管道。此外,我们表明我们的方法可以在AEC挑战数据集中的真实记录上进行困难的延迟估计案例实现重大改进。
translated by 谷歌翻译
雷达传感器逐渐成为道路车辆的广泛设备,在自主驾驶和道路安全中发挥着至关重要的作用。广泛采用雷达传感器增加了不同车辆的传感器之间干扰的可能性,产生损坏的范围曲线和范围 - 多普勒地图。为了从范围 - 多普勒地图中提取多个目标的距离和速度,需要减轻影响每个范围分布的干扰。本文提出了一种全卷积神经网络,用于汽车雷达干扰缓解。为了在真实的方案中培训我们的网络,我们介绍了具有多个目标和多个干扰的新数据集的现实汽车雷达信号。为了我们的知识,我们是第一个在汽车雷达领域施加体重修剪的施加量,与广泛使用的辍学相比获得了优越的结果。虽然最先前的作品成功地估计了汽车雷达信号的大小,但我们提出了一种可以准确估计相位的深度学习模型。例如,我们的新方法将相对于普通采用的归零技术的相位估计误差从12.55度到6.58度降低了一半。考虑到缺乏汽车雷达干扰缓解数据库,我们将释放开源我们的大规模数据集,密切复制了多次干扰案例的现实世界汽车场景,允许其他人客观地比较他们在该域中的未来工作。我们的数据集可用于下载:http://github.com/ristea/arim-v2。
translated by 谷歌翻译